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Aiaf gabe der Rxrfxndnng und Anwencfangaberexche 

Die vorliegende Erfindung erstreckt sich auf das Gebiet von 
programmierbaren und insbesondere wahrend des Betriebes 
umprogrannnierbaren arithmetischen und/oder logischen , 
Bausteinen (VPUs) m itfvielzahl von arithmetischen und/oder 
logischen Einheiten, deren Verschaltung ebenfalls 
prograitunierbar und wahrend des Betriebes umprogramroierbar ist. 
Derartige logische Bausteine sind unter dem Oberbegriff FPGA 
von verschiedenen Firxnen f verfugbar. Weiterhin sind mehrere 
Patente verSf f entlicht, die spezielle arithmetische Bausteine 
mit automatischer Datensynchronisation und verbesserter 
arithmetischen Datenverarbeitung offenlegen* 
Samtliche beschriebene Bausteine besitzen eine zwei- oder 
mehrdimensionale Anordnung von logischen und/oder 
arithmetischen Einheite n (PAEs) , die uber Bussysteme 
miteinander verschaltbar sind* 

Kennzeichnerxd far die der Erfindung entsprechenden Bausteine 
ist, dafl sie entweder die nachfolgend auf qelisteten Einheiten 
besit2en, Oder zur erf indungsgemafeen Anwendunq diese Einheiten 
programmiert oder (aach extern) hinzuqefqqt werden; 

1. mindestens eine Einheit (CM) zum Laden der 
Konf iqurationsdaten, 

2. PAEs.. 

3. mindestens ein Interface (IOAG) zu einem oder mehreren 
Speichern und/oder peripheren Geraten. 



Aufgabe der Erfindung ist es, ein Programmierverf ahren zur 
VerfOgung zu stellen, das es erm&glicht die beschriebenen 
Bausteine in gewShnlichen Hochsprachen effizient zu 
programmieren und dabei die Vorteile der diirch die Viel-zahl 
von Einheiten entstehende Parallelitat der beschriebenen 
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Bausteine weitgehend automatisch, vollstandig und efficient zu 
nutzen. 

Stand dgg Technik 

Bausteine der genannten Gattung werden zumeist unter 

Verwendung gewdhnlicher Datenf lussprachen programmiert . Dabei J 
treten zwei grundlegende Probleme auf: > 

1, Die Prograrranierung in Datenf lussprachen ist fur 
Programmierer gewohnungsbedurf tig, tief sequent ielle Auf gaben 
lassen sich nur sehr umstandlich beschreiben. ! 

2. Grofce Applikationen und sequentielle Beschreibungen lassen | 
sich mit den bestehenden Obersetzungsprogrammen (Synthese- ' 
Tools) nur bedingt auf die gewiinschte Zieltechnologie abbilden ! 
(synthetisieren) . * j 

Fur gew5hnlich werden Applikationen in mehrere j 
Teilapplikationen partitioniert, die dann einzeln auf die ,\ 
Zieltechnologie synthetisiert werden (Fig. 1). Die einzelnen j 
Binarcodes werden dann auf jeweils einen Baustein geladen. | 
Wesentliche Voraussetzung der Erfindung ist das in DE 44 16 j 
881 beschriebene Verfahren, das es ermoglicht, mehrere N ' 

partitionierte Teilapplikationen innerhalb eines, Bausteines zu 
nutzen, indem die zeitliche Abhangigkeit analysiert wird und . 
uber Steuersignale sequentiell die jeweiis erforderlichen j 
Teilapplikationen bei einer iibergeordneten Ladeeinheit | 
angefordert und von dieser daraufhin auf den Baustein geladen I 

werden. I 

i 

! 

Existierende Synthese-Tools sind nur bedingt in der Lage • 
Programm-Schleif en auf Bausteine abzubilden (Fig. 2 0201). \ 
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Dabei werden FOR-Schleif en (0202) als Primitiv-Schleif e hSufig 
noch dadurch unterstiitzt, dali die Schleife vollkommen auf die 
Ressourcen des Zielbausteines ausgewalzt werden. 

WHII£-Schleifen (0203) besitzen im Gegensatz zu FOR-Schleif en 

keineri konstanten Abbruchswert Vielmehr wird durch eine 

Bedingung evaiuiert, wann der Schleifenabbruch stattf indet . 

Daher ist gewShhlicherweise [wenn die Bedingung nicht Constant 

ist) zur Synthesezeit nicht bekannt, wann die Schleife 

abbricht. Durch das dynamische Verhalten kGnnen Synthese-Tools 

diese Schleifen nicht fest auf Hardware abgebildet d. h. auf 

einen Zielbaustein ubertragen werden. j 

; 
; 

Rakuraioncn sind grundsatzlich nicht auf Hardware abbildbar, i 
wenn die Rekursionstief e nicht zur Synthesezeit bekannt und 
damit konstant ist. Bei der Re kursion werden mit jeder rieuen j 
Rekursionsebene. neue Ressourcen allokiert . Das wjCirde bedeuten, j 
dafi mit jeder Rekursionsebene neue Hardware zur Verfugung j 
gestellt werden mufi, was aber dynaroisch nicht moglich ist, | 

Selbst einfache Grundstrukturen sind von Synthesetools nur 

dann abbildbar, wenn der Zielbaustein ausreichend groB ist, j 

d.h. ausreichende Ressourcen bietet, 

Einfache zeitliche Abhangigkeiten (0301) werden. durch heutige j 
Synthese~Tools nicht in mehrere Teilapplikationen 



i 



partitioniert und sind deshalb nur als Ganzes auf einen I 



Zielbaustein iibertragbar- j 

Bedingte AusfUhrungen (0302) und Schleifen uber Bedingungen \ 

(0303) sind ebenfalls nur abbildbar, wenn ausreichende I 
Ressourcen auf dem Zielbaustein existieren. 

i 

Krf xndungsgemABea Verfahren j 
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Durch das in DE 44 16 881 beschriebene Verfahren ist es 
mttglich Bedingungen zur Laufzeit innerhalb der 
Haxrdwarestrukturen der genannten Bausteine zu erkennen unci 
derart dynamisch darauf 2u reagieren, daft die ^Funktion der 
Hardware entsprechend der eingetretenen Bedingung modif iziert 
wird, was im wesentlichen durch das Konf igurieren einer neuen 
Struktur geschieht. 

Ein wesentlicher Schritt in dem erf indungsgeirUlfien Verfahren 

t 

ist die Partitionierung von Graphen (Applikationen) in 
zeitlich unabhangige Teilgraphen , (Teilapplikationen) • 

Der Begriff "zeitliche Unabhangigkeit" wird damit definiert, 
dafi die Daten, die zwischen zwei Teilapplikationen iibertragen 
werden durch einen Speicher, gleich welcher Ausgestaltung 1 
(also auch mittels einfacher Register), entkoppelt werden. Die | 
ist besonders an den Stellen eines Graphen moglich, an denen 
eine klare Schnittstelle mit einer begrenzten und moglichst J 
minimalen Menge von Signalen zwischen den beiden Teilgraphen 
besteht . ' 

• * • ■ I 

Oie zeitliche Unabhangigkeit kann in groften Graphen durch das J 

gezielte EinfUgen von klar definierten und moglichste j 

einfachen Schnittstellen zum Speichern von Daten in einen j 

fcwischenspeicher herbeigef iihrt werden (vgl. S n in Fig. 4) . | 

Schleifen weisen grundsatzlich eine starke zeitliche I 

Unabhangigkeit auf, da sie lange Zeit uber einer bestimmten ! 
Menge von (zumeist) in der Schleife lokalen Variablen arbeiten 

und nur beim Schleifeneintritt und beim Verlassen der Schleife j 
eine Ubertragung der Operanden bzw* des Ergebnisses erfordern. 

Durch die zeitliche Unabhangigkeit wird erreicht, daft nach der 
vqllstandigen Ausfuhrung einer Teilapplikation die 
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nachfblgende Teilapplikation geladen werden kann, ohne dali 
irgendwelche weiteren Abhangigkeiten oder Einfliisse auftreten* 
Beim Speichern der.Daten in den genannten Speicher Jcann ein 
Signal (Trigger) generiert werden, das die iibergeordneten 
Ladeeinheit zuni Nachladen der nMchsten Teilapplikation 
auffordert. Der Trigger kann bei der Verwendung von einfachen 
Registern als Speicher iromer generiert werden, wenn das 
Register beschrieben wird. Bei der Verwendung von Speichern, 
i.b- von solchen die nach dem FIFO-Prinzip arbeiten, ist die 
Generierung des Triggers von mehreren Bedingungen abhangig. 
Folgende Bedingungen . konnen beispielsweise einzeln oder 
korabiniext ein Trigger erzeugen: 

- Ergebnis-Speicher voll 

- Operanden-Speicher leer 

- keine neuen Operanden 

- Beliebige Bedingung innerhalb der Teilapplikation, generiert 
durch 2 . B. 

* Vergleicher 

* Zahler 

Eine Teilapplikation wird im folgenden auch Modul genannt, urn 
die VerstSndlichkeit aus Sicht der klassischen Prograxmnierung 
zu erh6hen. Aus demselben Grund werden Signale im folgenden 
auch Variablen genannt. Dabei unterscheiden sich diesie 
Variablen in einem Punkt wesentlich von herkonunlichen 
Variablen: Jeder Variable ist ein Statussignal (Ready) 
zugeordnet, das anzeigt, ob diese Variable einen gultigen Wert 
besitzt. Wenn ein Signal einen gultigen (berechneten) Wert 
besitzt, ist das Statussignal Ready; wenn das Signal keinen i 
gultigen Wert besitzt (Berechnung noch nicht abgeschlossen) , 
ist das Statussignal Not_Ready. Das Prinzip ist ausfiihrlich in 
der Patentanmeldung PACT02 P196 51 075.9 beschrieben- j 
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Wave-Reconfiguration 

Durch eine geeignete Hardwarearchitektur (vgl» Fig. 10/11} ist 
es mSglich mehrere Module zu uberlappen. P.h« mehrere Module 
sind in den PAEs vorkonf iguriert und.es kann mit minimalem 
Zeitaufwand zwischen den Konf igurationen umgeschaltet werden f 
so da& aus einer Menge von mehreren Konf igurationen pro PAE 
immer genau eine Konf figuration aktiviert is.t. 

Wesentlich ist, dafi dabei in einer Menge von PAE a in die ein 
Modul A urid B vorkonf iguriert ist, ein Teil der Menge mit 
einem Teil von A und eine anderer Teil der Menge gleich2eitiq 
mit einero Teil B konf iguriert sein kann, Dabei ist die 
Trennung der beiden Teile exakt durch die PAE gegeben, in der 
der Umschaltezustand zwischen A und B auftritt. Das bedeutet ; 
daS ausgehend von einem bestimmten 2eitpunkt bei alien PAEs 
bei denen vor diesem Zeitpunkt A zur Ausfiihrung aktiviert ' war 
B aktiviert ist und bei alien anderen PAEs nach diesem 
Zeitpunkt immer noch auf A aktiviert ist. Mit stejgender Zeit 
wird bei immer mehr PAEs B aktiviert. 

Die Umschaltung erfolgt aufqrund von bestimmten Paten, 
Zustanden die sich aus der Berechnung der Paten ergeben oder 
aufgrund beliebiger anderer Ereignisse. 

Das bewirkt, dafl direkt nach Verarbeitung eines Datenpaketes 
zu einer anderen Konf igurat ion umgeschaltet werden kann. 
Gleichzeitig/Alternativ kann ein Signal ( RECONFIG— TRI GGER ) an 
den CM gesendet werden 7 das das Vorladen von neuen 
Konf igurationen durch den CM bewirkt* Das Vorladen kann dabei 
auf anderen von der aktuellen Datenverarbeitung abhangigen 
Oder unabhangigen PAEs erfolgen. Durch eine Entkopplung der 
aktiven Konf iquration von den zur Unkonf iguration zur 
VerfUgung stehenden Konf igurationen (vgl* Fig. 10/11) k6nnen 
auch gerade arbeitende (aktive) PAEs, insbesondere auch die 
PAE, die den RECON FIG -TRIGGER erzeugte; mit neuen 
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Konf igurationen gel a den werden. Dies ermQglicht eine mit der 
Datenverarbeitung tiberlappende Konfigurat " 



ion. 



In Figur 13 ist, das Grundpringjp der Wave-Reconfiguration 
(WRC) darqestellt. Dabei wird von einer Reihe von PAEs (PAE1- 
9) ausqeganqen, durch die die Paten pipelineahnlich laufen. Es 
wird ausdrucklich darauf hinqewiesen, daB WRC nicht auf 
Pipelines beschrankt ist und die Verne t aung und Gruppierung 
der PAEs jede beliebige Form annehmen kann. Die Darstellung 
wurde jedoch qewShlt am ein einf aches Beispiel zum besseren 
Verstandnis zu zeiqen. 

In Fig, 13a lauft ein Datenpaket in die PAEl. Die PAE, besitzt 
4 moqliche Konf igurationen (A, F, H, C) , die durch eine 
geeignete Hardware (vgl- Fig- 10/11) wahlbar sind. Die 
Konf iguration F ist in in PAE1 fur das aktuelle Datenpaket 
aktiviert (schraffiert dargestellt) . 

Im nachsten Takt lauft das Datenpa it nach PAE 2 und ein neues 
Datenpaket erscheint in PAEl \ Auch in PAE2 ist F aktiv. 
Zusammen mit dem Datenpaket erscheint ein Ereignis (tl) ; bei 
PAEl. Das Erqnis entsteht durch Eintreffen eines beliebigen 
Ereiqnisses von aussen bei der PAE (z.nB. eines Statusflags 
oder Triggers) oder wird innerhalb der PAE durch die 
ausgefuhrte Berechnung qeneriert. 

In. Fig. 13c wird in PAEl aufgrund des Ereiqnisses (tl) die 
Konf iguration , H aktiviert , qleichzeitig erscheint ein neues 
Ereignis (1"2) , das im nachsten Takt (Fig. 13d) die Aktivierung 
von Konf iguration A bewirkt. 

In Fiq» 13e trifft (t3) bei PAEl, die das Uberschreiben von F 
mit G bewir kt (Fig. 13f ) . Durch das Eintreffen von (t4) wird G 
aktiviert (Fig. 13g) . (ts) bewirkt das Laden von K anstelle 
von C (Fig 13h,i) und ct6) ladt und startet F anstelle von H 
(Fig.. 13j) > 
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In Fig* 13 bewegt eine Welle von Umkonf iqurationen aufgrund 
von Ereignissen durch eine Menge von PAEs, die 2- Oder 
mehrdimensional ausgestaltet sein kann. 

Es ist nicht zwjngend notwendig, dafl eine einroal stattf indende 
Umkonf igurat ion durch die gesamten Flufl hinweg stattfindet. 
Beispielsweise k6nnte die Urokonf iguration mit der Aktivierung 
von A aufgrund des Ereignisses (t2) nur lokal in den PAEsl bis 
3 und PAE7 stattf inden, wahrend in alien anderen PASs , 
weiterhin die Konf iguration H aktiviert bleibt. 
Mit anderen Worten: 

a) Es ist mfrglich, daft ein Ereigniss nur lokal auftritfc und 
daher nur lokal eine Umaktivierung zur Folge hat, 

b) ein globales Ereignis, hat moglicherweise keine Auswirkung 
auf manche PAEs; abhangig vom ausgef tihrten Algorithmus. 

Bei den PABs die nach (T2) weiterhin H aktiviert halten, kann 
selbstverstandlich das Eintreffen des Ereignisses (t3) 
vollkomitten andere Auswirkungen haben, (I) wie etwa das 
Aktivieren von C statt dent Laden von G, (ii) andererseits 
kflnnte (T3) auf diese PAEs auch gar keinen Einflufl haben. 



Das Proaseosormodoll 

Die in den folgenden Figuren gezeigten Graphen besit2en als 

Graphenknoten immer £Ln Module wobei davon ausgegangen wird, 

dafl mehrere Module auf einen Zielbaustein abgebildet werden 

kfcnnen. Das ( heifct r obwohl alle Module zeitlich voneinander 

unabhangig sind, wird nur bei nach den Modulen eine 

Umkonf iguration durchgefiihrt, baw> und/oder ein Datenspeicher 

eingefttgt, die mit einem vertikalen St-rich und At marJciert 

sind. Dieser Punkt wird Umkonf igurationszeitpunkt genannt, 
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Per Umkonf igurationszeitpunkt 1st abhangig von den bestimmten 
Paten oder den Zustanden die sich aus der Verarbeitunq der 
bestiromten Paten ergeben. 

Pas bedeutet zusammenf assend: 

1, GroBe Module kc-nnen an geeigneten Stellen partitioniert 
werden und in kleine , zeitlich voneinander unabhangige Module 
zerlegt werden. 

2, Bei kleinen Modulen die geraeinsam auf einen Zielbaustein 
abgebildet werden konnen, wird auf die zeitliche 
Unabhangigkeit verzichtet, Dadurch werden 

Konfigurationsschritte eingespart und die Datenverarbeitung 
beschleunigt . 

3, Die Umkonf igurationszeitpunkte werden entsprechend der 
Ressourcen der zielbausteine positioniert . Dadurch ist eine ! 
beliebige Skalierung der Graphenlange gegeben. 

4, Module konnen uberlaqert konf iquriert werden - 

5, Pie Umkonf iquration von Modulen wird durch die Paten selbst j 
Oder dem Ergebnis der Verarbeitunq der Paten qesteuert* j 

Copy And - Compute Virtual Machine Model! \ 

Pie Grundlagen der Datenverarbeitung mit VPU-Bausteinen sind 

entsprechend der vorhergehenden Abschnitte hauptsachlich j 

datenf luftorientiert . Urn sequent ielle Programme mit I 

ordentlicher Leistunq abzuarbeiten, ist es jedoch notwendig 

ein sequentielles Datenverarbeitunqsmodell zur Verfugung zu * ! 

haben* Da bei sind oftmals die Sequenzer in den einzelnen PAEs | 

nicht ausreichend. ! 

Pie Architektur von VPUs ermoqlicht jedoch grundsatzlich den 

Aufbau von beliebiq komplexen Sequenzern aus einzelnen PAEs» ; 

Pas bedeuted; 

1 : Es konnen komplexe Sequenzer konf iquriert werden, die exakt 
den Anf orderungen des Alqorithmus entsprechen* 
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2. Per DatenfluS kannjwie bereits ausftihrlich diskutiert r 
exakt die Rechenschritte des Algorithmus reprasentieren. 

Padurch kann eine Virtue! le Maschine auf VPUs implement iert 
werden, die insbesondere auch den seguentiellen Anf orderungen 
eines Algorithmus entspricht* 

Hauptvorteil der VPU-Architektur ist , daft ein Algorithmus 
durch einen Compiler so zerteilt werden kann r dafl die 
Datenflu&teile extrahiert werden durch einen "optimalen" 
Datenf luB reprasentiert werden, indent ein anqepaflter Datenflufi 
konfiguriert wird OND die seguentiellen Telle des A l gorithmus 
durch einen "optimal en" Sequenzex represent iert werden f - indem 
ein angepafiter Sequenzer konfiguriert wird, Dabei konnen 
gleichzeitig mehrsre Secruenzer und Datenflusse auf einer VPU 
untergebracht werden, ausschliefllich abhangig von den zur 
Verfugung stehenden Ressourcen. 

Durch die qrofte Anzahl an PABs entstehen im Betrieb innerhalb 
einer VPU sehr viele lokalen 2ustande„ Bei Taskwechseln Oder 
Unterprogramm-Auf rufen (Interrupts) mussen diese Zustande 
gesichert werden (vgl - PUSH/ POP bei Standardprozessoren j . Dies 
ist jedoch auf grand der Menge an Zustanden nicht sinnvoll 
mSglich. 

Um die Zustande auf eine handhabbare Menge zu reduzieren mufl 
zwischen zwei Arten von Zustanden unterschieden werden: 
1. Zustandsinformationen des Maschinenmodells (MACHINE-STATS). 
Diese Zustandsinfonnationen sind nur innerhalb der 
Abarbeitung eines bestimmten Modules gliltig und werden auch 
nur lokal in den Seguenzern und Datenf lufteinheiten dieses 
bestimmten Modules verwendet. D.h. diese MACHINE— STAT Bs 
represent ieren die Zustande, die in Prozessoren nach dem 

- 10 / 33^r& - 
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Stand der Technik verdeckt innerhalb der Hardware ablaufen, 
implizit in deri Befehlen und den Verarfreitunqsschritten 
sind und nach Ablauf eines Befehles keine weitere 
Information fur nachf olqende Befehle beinhalten. Derartiqe 
Zustande brauchen nicht qesichert zu werden. Bedinqunq 
dafur ist, dafl .Interrupts nur nach kompletter Ausftthrung 
aller qerade aktiven Module durchgefahrt werden, Stehen 
interrupts zur Ausftihrunq an, werden keine neuen Module 
qeladen, sondern nur noch aktive abgearbeitet ; ebenfalls 
werden den aktiven Modulen, soweit es der Algorithmus 
zulaBt keine neuen Operanden mehr zugefuhrt. Dadurch wird 
ein Modul zu einer atomaren nicht unterbrechbaren Einheit r 
vergleichbar mit einer Instruktion eines Prozessors nach 
dem Stand der Technik, 
2> Zustande der Datenverarbeitunq (DATA-STATE) . Die 

datenbezoqenen 2ustande miissen beim Auftreten eines 
Interrupts entsprechend den Prozessormodellen hach dem 
Stand der Technik qesichert und in den Speicher geschrieben 
werden. Das sind bestimmte notwendige Register und Flags 
oder - entsprechend der Beqriffe der vPU-Technoloqie - 

Bei den DATA- STATES kann die Handhabunq je nach Algorithmus 
weiter vereinfacht werden > Zwei grundlegende Strateqien werden 
im Folqenden nahers erlautert: 
1. Mitlaufen der Zustandsinf ormation 

Dabei werden alle relevanten und zu einem spateren Zeitpunkt 
benotigten Zustandsihformationen von einem Modul zum nachsten 
iibertragen, wie es in Pipelines oftmals standardmafiig 
implement iert ist. Die Zustandsinf ormat ionen werden dann 
zusammen mit den Paten implizit in einem Speicher abgelegt, 
sodafl die Zustande bei einem Abruf der Paten zugleich zur 
Verfiigung stehen. Ein explizites Handhaben der 

- 11 / 331-S - 



00*T0'60 



(9I/uoa u 8J!3S) 80g69nZZ00/>-0Z00re9XV£g^ 



• • • • 4 



PACT GMBH 



S. 13/54 



Zustandsinformationen i.b- mittels PUSH und POP entfallt 
dadurch, was j e nach Algorithmus einerseits zu einer 
wesentlichen Beschleuniqung der Abarbeitunq und andererseits 
zu einer vereinfachten Proqrammierunq fiihrt. 
Die Zustandsinfoxmaton kann wahlweise entweder rttit dem 
jeweiliqen Datenpaket gespeichert werden, oder nur im Falle 
eines Interrupts qesichert und besonders qekennzeichnet ) 
werden - 

2 - Sichern der Reentry Adresse 

Bex der Verarbeitung von qroften Datenmengen, die in einem 
Speicher abqeleqt sind, -fs^ kann es sinnvoll sein^die Adresse 
mindestens einer der Operanden des gerade verarbeiteten 
Datenpaketes mit dem Datenpaket zusamxnen durch die PA£s zu 
leiten. Dabei wird die Adresse nicht modif iziert » sondern steht 
beim Schreiben des Datenpaketes in ein^RAM als P ointer, auf den 
letzten verarbeiteten Operanden zut Veffttqunq, 
Dieser Pointer kann wahlweise entweder mit dem jeweiliqen 
Datenpaket gespeichert werden, oder nur im Falle eines 
Interrupts qesichert und besonders qekennzeichnet werden . 
Insbesondere, wenn samtliche Pointer auf die Operanden durch 
eine Adresse (oder eine Gruppe von Ad res sen) berechnet werden 
konnen ist es sinnvoll nur eine Adresse (oder eine Gruppe von 
Adressen) zu sichern - 

"ULIW"-"UCISC"Hyfodell 

FQr das Verstandnis dieses (einem Prozessor nach dem Stand der 

Technik sehr ahlichen) Modells ist eine Erweiterunq der 

Betrachtunqsweise der Architekitur von VPUs erf orderlich. Dabei 

dient das Virtual-Machine Modell als Grundlaqe* 

Das Array aus PAEs (PA) wird als in ihrer Architektur 

konf iqurierbare Recheneinheit betrachtet. Per/die CM ( s ) 
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steXlen eine Ladeeinheit (LOAD-UNIT) fur Opcodes dar, Die 
IOAG(s) tibernehmen das Businterface und/oder den Registersatz . 

Diese Anordnunq ermftgXicht zwei grundsatzXiche 
Funktionsweisen, die im Betrieb qemischt verwendbar sind; 

X. Eine Gruppe von PAEs (das kann auch eine PAS sein) wird zur 
Ausftthrunq eines kompXexen BefehXs oder Bef ehXsf oXqe. 
konfiquriert und danach werden die auf diesen BefehX bezogenen 
Paten (das kann auch ein einziqes Patenwort sein) verarbeitet- 
Danach wird diese Gruppe umkonf iquriert , zur Abarbeitung des 
nachsten BefehXes, Pabei ka n n sich die Grofie und Anordnung der 
" Gruppe andern. Gemafl den bereits besprochenen 
PartitxonierunqstechnoXogien obiiegt es dem CompiXer, 
moqXichst optimaXe Gruppen zu schaffen- Durch den CM werden 
Gruppen aXs BefehXe auf den Baustein "qeladen w f dadurch ist 
des Verfahren mit dem bekannten VLIW verqleichbar, nur daft 
erhebXich mehr Rechenwerke verwaltet werden UND die J 
Vernetzunqsstruktur zwischen den Rechenwerken ebenfaXXs vom ( 
Instruktionswort abqedeckt werden kann (UXtra Large . i 
Instruction word = "ULIW") t Ein Instruktionswort entspricht ; 
dabei einem ModuX- Mehrere ModuXe konnen qXeichzeitiq i 
verarbeitet werden^ sofern es die Abhanqiqkeit der Paten 1 
zuXaflt und qenUqend Ressourcen auf dem Baustein frei sind. Wie 1 
bei VLIW-BefehXen wird fur gewahnXich nach Ausfiihren des 
Instruktionswortes sofort das nachste Instruktionswort 

qeXaden. Zur zeitXichen Optimierung ist es dabei moqlich das j 
nachste Instruktionswort bereits wahrend der Ausfuhrung 
vorzuXaden (vqL Fig. XO) + Bei mehreren mSqXichen nachsten 
Instruktionswort en kSnnen mehrere vorgeXaden werden und vor 
der Ausfuhrung wird z.B, durch ein TriqqersignaX das korrekte 
Instruktionswort ausgewahXt- BEISPIEL MIT IF-«ELSS ZEICHNEN!\ 

~ 13 / 33^- - ( 
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2 , Bine Gruppe von PASS (das kann auch eine PAE sein) wird zur 

Ausftthrunq einer haufig qebrauchten Befehlsfolqe konf iguriert . 

Die Paten, das kann auch hier ein einzelnes Patenwort sein, 

werden bei Bedarf der Gruppe zugefohrt und von der Gruppe 

empfanqen. Diese Gruppe bleibt uber eine Vielzahl von Takten 

ohne Umkonfiguration bestehen, Verqleichbar ist diese 

Anordnung mit einem speziellen Rechenwerk in einem Prozessor 

nach dem Stand der Technik (z.B. MMX) das fur Spegjalauf gaben 

vorqesehen ist und nur bei Bedarf verwendet wird- Durch diesen 

Ansatz sind Spezialbef ehle entsprechend des ClSC^-Prinzipes . 

generierbar, mit dem Vorteil, daft diese Befehle , 

anwendungsspezi'f isch geschaffen werden k5nnen (Ultra-CISC = | 

"UCISC") - j 

Erweit erunq des RDY/ACK-Protokolls (vgl» P-ACXfrg) , 

— ^g^fr* ^5rA " ~ 

In gHCTfrg xst ein RPY/ACK-Standardprotokoil beschrieben, das | 
die wesentlichen Anf orderungen gemaft den Synchronisatiorien von I 
PE 44 16 881 in Hinblick auf eine typische j 
Patenf luftapplikation beschreibt* Nachteil des Protokolles ist, | 
daft lediqlich Paten gesendet und der Empfanq bestatigt werden j 
kann. Per uxngekehrte Fall,, indem Paten angefordert werden und | 
das Versenden bestatigt wird (im Folgenden REQ/ACK qenannt, j 
ist zwar elektrisch mit demselben 2weidrahtprotokoll losbar, ! 
jedoch semantisch nicht erfaflt. Pas gilt insbesondere, wenn 
REQ/ACK und RDY/ACK geihischt betrieben werden. . J 
Paher wird die klare Unterscheidung der Protokolle eingefuhrt: 
RPY: Paten lieqen beim Versender fur den Empfanger bereit j 
REQ: Paten werden vom Empf anger beim Versender angefordert j 
ACK: Allgemeine Bestatiqung fur erfolgten Emfang oder Versand , 

~ 14 / 33±& - I 



ZX 00" 10*60 9T5 t762 



+49-721-469308 KANZLEI ZfiHN/PIETRUK 296 S02 09.01.00, 



• • • f • • 

• • • • 




j^rinzipiell kfirmten ai^h .wischen ACK fur ei n RDY und einem 
ACK fur ein REO unterschieden werden, jedoch ist in den 
Protokollen die Semanti k d 6S ACKs fur qewahnlich implicit) ■ 



Speichermodell 

In VPUs k5nnen Speicher inteqri ert werden (einer oder 
mehrere), die ahnlich einer PA£ . anqespro chenjyerden. Ss wird 
im folgenden ein Speichermodell b eschrieben, das qleichzeitig 
ein Interface zu externer Peripherie und/ode r externem 
Speicher darstellt: 

EjjntjyPU -interner Speicher mit PAE-ahnli chen Bugf unktionenjcann 
verschiedene Speichermodi darstellen: 
1 , Standardspeicher 
2- Lookup-Tabelle 

3 . FIF O 

4. LIFQ 

Pern Speicher ist ein steuerbares Interface zuqeordnet, das 
Speicherbereiche wahlweise wort- Oder blockw eise schreibt oder 
liest. • ■ . - " 

Padurch ergeben sich folgende Nutzunqsmoqlich keiten: s 

1. Entkopplung von DatenstrSmen (FIFO) 

2. Schneller Zuqriff auf selektierte Speicherberei che eines 
externen Speicher s, was eine Cacheahnli che Funktion 
darstellt (Standardspeicher, Lookup-Tabelle) 

3. Stack mit variierbarer Tiefe (LIFQ) 

Dabei kann das Interface benutzt werden, es ist jedoch nicht 
zwinqend notwendiq, wenn die Paten z.B, ausschliefll ich lokal 
in der VPU verwendet werden und der Speicherplarz eines 
internen Speichers ausreicht. 

- 15 / 33^S - 
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Stack Modell 

Durch Verwenduna des REO/ACK-Protokolls uhd d er internen 
Speicher im LIFQ-Modus kann ein einfacher Stack-Prozessor 
aufgebaut werden. Dabei werde n temporare Paten von den PAEs 
auf den Stack geschrieben und bei Be darf von dem Stack 
qeladen. Die hierfur notwendigen Compilert echnologien sind 
hinreichend bekannt . 

Durch die variierbare Stacktiefe, d ie durch einen 
Datenaustausch des internen Speicher mit einem ex ternen 
Speicher erreicht wird/ kann der Stack beliebig oroft werden, 



Akkumulator Model! , 
I^Wr^ Jede PAE kann eine Recheneinheit nach dem Akku mulatorprinzip 
darstellen. Wie aus PA €TO2 bekannt ist» es mOglicn^die 
Ausqangsregister auf den Eingang der PAE rQckzukoppeln. lX 
Dadurch entsteht ein Akkumulator: nach dem Stand der Technik, 
In Verbindung mit dem Seguenzer nach Fig. 11 lassen sich 
einfache Akkumulator-Prozessoren aufbauen- 



Register Modell 

Durch Verwendung des REQ/ACK-Protokolls und der internen 
Speicher im Standardspeicher -Modus kann ein einfacher 
Register-Prozessor aufqebaut werden. Dabei warden die 
Registeradressen von einer Gruppe von PASs generiert, wahrend 
eine andere Gruppe yon PAEs die Verarbeitung der Paten 
ubernimmt - 



Die verwendeten Maschinenmodell£,kannen innerhalb einer VPU 
beliebig kpmbiniert werden, A uch jnnerhalb eines Alqorithmus 

- 16 / 33iS - " 
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kann ie rtom, welches Modell^Sptimal i st r zwischen den 
J ~ — 

Model len gewechselt werden. 

Wird einem, ^r^^-Pr Q zess or ein weiterer Speiche r zugefugt, 
von dem die Ooeranden aelesen w e rden und in den die Ergebnisse 
aeschrieben'werden, kann eine Load/Store-Proze ssor auf qebaut 
werden. Oabei k5nnen mehrerg verschieden e Speicher zuqeordnet 
werden, indem die einzelnen Qperanden und das E r gebnis 
qetrennt behandelt wird, 

Diese Speicher arbeiten dann quasi a l3 Load/Store-Einheit und 
stellen eine Art Cache fur den externen S peicher dar. Die 
Adressen werden durch von der Daten verarbeitunq separierte 
PAEs berechnet » 



Pointer Reordering 

Hochsprache n wie C/C++ verwenden hauf ig Pointer, die sehr 
schlecht durch Pipelines gehandhabt werden ko nnen. Wenn ein 
Pointer er st direkt vo r dem Verwenden der Patenstrukturen auf 
die er zeigt, berechnet wird, kann haufig die Pipelin e nicht 
schnell genuq gefullt werden und die Verarbeitung wird 
speziell in VPUs ineffizient. 

Sicherlich ist es sinnvollj bei der programmierunq von VPUs 
m5qlichst keine Pointer zu verwenden> Iedoch 1st das oftmals 
nicht moqlich* 

£te :L5sunq A 'ist, die Pointerstrukturen durch den Compiler so 
umzusortieren, dafl die Pointeradressen moqlicHst lange vor 
deren Verwendunq berechnet werden> Gleichzeitiq sollte es 
mSglichst weniq direkte Abhanqigkeiten zwischen einem Pointer 
und den Daten^auf die er zeiqtjqeben. 
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Fignjggn 

In Fig. 4a sind einige grundlegenden Eigensehaften des 
erf i'ndungsgemaiien Verfahrens dargestellt: 

Die Module des Types A sind zu einer Gruppe zusamroengefaBt und 
besitzen am Ende einen bedingten Sprung, entweder nach Bl Oder 
B2. An dieser Position (0401) ist ein umkonf igurationspunkt 
eingeftigt, da es sinnvoll ist die Zweige des bedingten 
Sprunges als jeweils eine Gruppe zu betrachten (Pall 1) . 
Wtirden dagegen beide Zweige von B (Bl und B2) zusatzlich 
zusammen mit A auf den Zielbaustein passen (Fall 2), ware es 
sinnvoll, nur einen Umkonf igurationspunkt bei 0402 einzufugen, 
da dadurch die Zahl der Konf igurationen verringert wird und 
sich die Verarbeitungsgeschwindigkeit erhfiht. Beide Zweige (Bl 
und 82) springen bei 0402 nach C. 



V 



Die Konf iguration der 2ellen auf dem Zielbaustein ist in Fig. 
4b sch^matisch dargestellt. Dabei werden die Funktionen der 
einzelnen Graphenknoten auf die Zellen des Zielbausteins 
abgebildet. Jeweils eine Zeile stellt eine Konf iguration dar. 
Die gestrichelten Pfeile bei einem Zeilenwechsel zeigen eine 
Umkonf iguration an. S n ist eine datenspeichernde Zelle, von 
beliebiger Ausgestaltung (Register, Speicher, etc. ) . Dabei ist 
S n I ein Speicher, der Oaten entgegennimmt und S n O ein Speicher^ 
der Daten ausgibt. Der Speicher S n ist fur gleiche n jeweils 
derselbe, I und O kennzeichnen die Datentransf errichtung* 



Beide Falle des bedingten Sprunges (Fall 1, 
dargestellt . 



Fall 2) Sind 



Das Modell in Fig. 4 entspricht einem Datenf luftmodell, jedoch 
mit der wesentlichen Erweiterung des Umkonf igurationspurikts 
und der damit erreichbaren Partitionierung des Graphen, wbbei 
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die zwischen den Partitionen iibertragenen Oaten 
zwischengespeiehert werden. 

Im Modell von Fig. 5a wird aus einer beliebigen Graphenmenge 
and -Konstellation (0501) selektiv ein Graph B» aus einer Menge 
von Graphen B aufgerufen. Nach der Ausfuhrung von B gelangen 
die Daten nach 0501 zurflck. 

Wird in 0501 ein ausreichend grofier Sequencer (A) 
implement iert, ist mit dem Modell ein den typischen 
Prozessoren sehr ahnliches Prinzip implementierbar - Dabei 
gelangen 

1. Daten in den Sequenzer A, die dieser aJ.s Befehle dekodiert 
und entsprechend dem "von Neumann"-Prinzip darauf reagiert; 

2, Daten in den Sequenzer A, die als Daten betrachtet werden 
und an ein fest konf iguriertes Rechenwerk C zur Berechnung 
weitergeleitet werden. 

Der Graph B stellt selektierbar ein besonderes Rechenwerke 
und/oder besondere Opcodes fur bestiirante Funktionen zur 
Verfilgung und wird alternativ zur Beschleunigung von C 
verwendet. Beispielsweise kann Bl ein optimierter Algorithrous 
zu Berechnung von Matrixmultiplikationen sein, wahrend B2 
einen FIR- Filter und B3 eine Mustererkennung darstellt- 
Entsprechend eine3 Opcodes der von 0501 dekodiert wird, wird 
der geeignete bzw. entsprechende Graph B aufgerufen. 

Fig. 5b schematisiert die Abbildung auf die einzelnen Zellen, 
wobei in 0502 der pipelineartige Rechenwerks-Character 
symbolisiert wird. 

Wahrend in den Umkonf igurationspunkten von Fig.. 4 vorzugsweise 
gr6fter'e Speicher zum Zwischenspeiohern der Daten eingefugt 
werden, ist eine einfache Synchronisation der Daten in den 
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Omkonfigurationspunkten von Fig. 5 ausreichend, da der 
Datenstrom vorzugsweise als ganzer durch den Graphen B lauft 
und der Graph B nicht welter partitioniert ist,- dadurch 1st 
das Zwischenspeichern der Oaten tlberflussig- 

in Fig. 6a sind verschiedene Schleifen dargestellt. Schleifen 
konnen grundsatzlich auf drei Arten behandelt werden: 

1. Hardware-Ansatz: Schleifen werden vollstandig ausgewalzt 
auf die Zielhardware abgebildet (0601a/b) . Wie bereits 
erlautert ist dies nur bei wenigen Schleif enarten mfiglieh. 

2. Datenf lufl-Ansatz: Innerhalb des Datenfluftes werden 
Schleifen iiber mehrere Zellen hinweg aufgebaut (0602a/b) - Das 
Ende der Schleif e wird auf den Schleif enanfang riickgekoppelt . 

3. Sequenzer-Ansatz: Ein Sequenzer mit minimalem Befehlssatz 
fiihrt die Schleif e aus (0603a/b) . Dabei sind die Zellen der 
zielbausteine so ausgestaltet, da/5 sie den entsprechenden 
Sequenzer beeinhalten (vgl. Fig. lla/b) . 

Durch eine geeignete Zerlegung von Schleifen kann deren 
Ausftthrung ggf- optimiert werden: 

1. Unter Verwendung von Optimierungsmethoden nach dem Stand der 
Technik lafit sich haufig der Schleif enrumpf, also der 
wiederholt auszuftthrende Teil, dadurch optimiereh, dafi 
bestimmte Operationen aus der Schleife entfernt werden und vor 
oder hinter die Schleife gestellt werden <0604a/b) . Dadurch 
wird die Menge der zu sequencenden Befehle erheblich 
reduziert. Die entfernten Operationen werden nur einmal vor 
bzw. nach Ausfuhrung der Schleife durchlauf en. 

2. Eine weitere Optimierungsm6glichkeit ist das Teilen von 
Schleifen in mehrere kleinere oder kiirzere Schleifen. Dabei 
findet die Teilung derart statt, daft mehrere parallele oder 
mehrere sequentielle (0605a/b) Schleifen entstehen. 

-r 20 / 333r£ - 
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Fig 7 verdeutlicht die Implementierung einer Recursion. Dabei 
werden dieselben Ressourcen (0701) in Form von Zeilen fur jede 
Rekursionsebene (1-3, verwendet. Die Ergebnisse einer D eden 
Rekursionsebene (1-3) werden beim- Aufbau (0711m-) in emen 
nach dem Stack-Prinzip aufgebauten Speicher (0702) 
geschrieben. Gleichzeitig mit dem Abbau (0712:) der Ebenen 
wird der Stack abgebaut. 

In Fig. 14 wir das Virtual-Machine-Model l darqestellt- Aus 
einera externen Soeicher w« rdgn Paten (1401) and zu den Paten 
qenarende f!402) i n eine VPU (140 3) qelesen. 

1401/1402 werden uber e in e von der VPU generie rt e Adresse 1404 
selektiert. Innerhalb der VP U s ind PAEs zu unterschiedlichen 
0 Gruooen zusammengefafit (1405, 1406, 1407). Jede Gruppe besitzt 

0 einen datenverarbeltenden Teil (1408), d er lokale impijlzite 
Zusta n de (1409) besitzt, die keinen Einflufl auf die 
, umliegenden Gruppen besitzt. Daher werden d essen Zustande 
nicht auSerhalb der Gruppe weitergeleit et . Er kann jedoch von 
den externen Zustanden abhanqiq sei n. Ein weiterer Teil (1410) 
aeneriert 2ustande. die Einflufi auf die umlie genden Gruppen 
haben. 



Die Paten und Zustande der Ergebnisse werden in einen weiteren 
Soeicher (1411, 1412) abqelegt. Gleichzeitig kann die Adresse 
von Operanden (14004) als Pointer gespeic hert (1413) werden. 
2ur zeitliche Synchronisation kann 1404 uber Re gister (1414) 
gefuhrt werden. 

In Fig. 14 ist zur Verdeutlichung ein einf aches Modell 
darqestellt. Pie vernetzung und Gruppierung ka nn wesentlich 
komplexer sein als in diesem Modell. Ebenfalls ko nnen Zustande 
und Paten auch an weitere Module als den Nachf olqenden 
tlbertragen werden. Es ist moglich, daft Paten ah and ere Module 
Qbertragen werden als die Zustande. Sowohl Paten a ls auch 

■- 21 / 33£S - 
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Zustande eines bestimmten Moduls ko nnen von mehreren 
unterschiedlichen Modulen eropfanqen werden, Innerh alb einer 
Gruppe kann 1408, 1409 und 141 0 yoAnden sein, Abhangig vom 
Alqorithmus konnen auch e in zelne Telle f ehlen (z,B. 1410 und 
1409 vorhanden, 1410 jedoch nlcht) - 

In Figur 15 ist darqestellt wie aus einem Verar beitunqsgraphen 
Teilapplikationen extrahier t werden. Dabei wird der Graph so 
zerlegt, daft lanqe Graphen sinnvoll zerteilt werden und in 
Teilapplikationen (A.B) abqebildet wer den, (It»A NOCH L&NGER 
MACHEN 1 i ? ) Nach Spriingen werden neue Teilgraph en qebildet 
iC^K) wobei far leden Spru ng ein qetrennter Te ilqraph gebildet 

wird. /PACT** 
jeder Teilqraph. 1st in dem OLIW-Modell von der CM (vgl-D g * 9<? *W 
f ^^-^^ ^T^etrennt ladbar, Wesentlich ist, daft Teilgraphen durch 
die Mechanismen in^^^^^^^^^^^^g^^lk5nn^ Dazu gehort 



insbesondere das intelligente Vorladen, Laden und Loschen der 
Teilapplikationen . 

Das ULIW-Modell unterscheidet sich im Wesentlichen vom VLIW- 
Model 1, indem es 

1, Das Routing der Paten mit beinhaltet 
2- GroQere Instruktionsw5rter bildet. 

£benfalls kann das beschriebene Verfahren der Partitionierung 
von Compilern fur heutiqe Standardprozessoren nach dem 
RISC/CISC-Prinzip ebenso einqesetzt werden » Wird dann eine 
Einhelt (CT) nach PACT10 zur Steuerunq des Bef ehls-Caches 
verwendet, kann dieser erheblich optimiert und beschleunjgt 
werden. 



Dazu werden "norma le" Programme entsprechend in 
Teilapplikationen partitioniert - Gemafl PACT10 werden Verweise 
auf mftgliche nachfolgende Teilapplikationen eiriqeftihrt (1501/ 
1502). Dadurch kann eine CT die Teilapplikationen bereits in 
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den Cache vorladen bevor sie b e notiqt werden- Bei Spriingen wird 
nur die angesprunqen Teilapplikation a usqefuhrt, die andere(n) 
werden spater durch neue Teilapplikatione n tiberschrieben. 
Neben dem intelliqenten Vorladen hat: das Verfahren den 
weiteren Vorteil, daft die GroBe der Teilappl ikationen beim 
Laden bereits bekannt ist, Dadurch konnen op timale Bursts beim 
Zugrif f auf die Speicher von der CT ausqefuhrt we rden, was den 
Speicher zuqriff wiederum erheblich beschleunigt- 

Figur 16 zeigt den Auf baa eines Stack-Prozessor s, Durch das 
PAB-Array (1601) verden Protokolle generiert urn auf e inen als 
LIFO konfigurierten Speicher (1602) 2U schreib en Oder zu 
lesen. Dabei wird ein RDY/ACK-Protokoll zum Schreiben und 
REQ/ACK-Protokoll zum Lesen verwendet. Die Vernetzunq und 
Betriebsmodi werden von der CT (1603) konf iguriert , 1602 kann 
dabei seinen Inhalt auf den externen Speicher (1604) 
auslaqern. 



£ine Reihe der FAEs sollen in diesem Beispiel als Register- 
Prozessor arbeiten (Figur 17), Jede PAE besteht aus einem 
Rechenwerk (1701) und einem Akkumulator (1702) auf den das 
Ergebnis von 1701 ruckge k oppelt (1703) ist- Damit stellt in 
diesem Beispiel jede PAE einen Akkumulator-Prozessor dar. 
Eine PAE (1705) liest und schreibt die Paten in den als 
Standardspeicher konfigurierten RAM (1704). Eine weitere PAE 
(1706) generiert die Reqisteradressen. 

Oftmals 1st es sinnvoll ^ ejne getrennt PAE zum Lesen der Paten 
zu vervenden. Dann wurd&^7^5 nur schreiben und die PAE 1707 
lesen. Dabei wird eine weitere PAE (1708, gestrichelt 
unterlegt) zum Generieren der Leseadressen einzufuhren. 
Es ist nicht zwingend notwendig^getrennte PAEs zum Generieren 
der Adressen zu verwendet.. Oftmals sind die Register implizit 
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„nd konnen d*nn als Kon 3 t a nten konfiqnriert warden von den 
datenverarbeitenden PAEs a esendet werden. 

Die Verwendunq von Akkumulator- P rozessoren fftr einen Register^ 
Prozessor ist beispiels haf t ■ Ebenso kftnnen zum Aufbau von 
Reqisterprozessoren PAEs ohne Akkumulator verwe ndet werden. 
Die in Figur 17 qeaeigte Architek tur kann zur Ansteuerung von 
Registern als auch zam Anst e uern einer Load/Store-Einheit 
dienen . 

Bei der Verwendunq als Load/Store -Einheit ist es fast zwingend 
notwendig ; einen externen RAM (1709) na chzuschalten, sodafi 1704 
nur einen temporaren Ausschnitt aus 1 7 09. quasi als Cache, 
darstellt . 

Auch bei der Verwendunq von 1704 als Register-Bank ist es 
teilweise sinnvoll einen externen Speicher nachzuschalten. 
Dadurch konnen PUSH/POP Qperationen nac h dem Stand der Technik 
durchgefuhrt werden, die den Registerinhalt in einen Spe icher 
schreiben oder aus diesero Lesen. 



In Figur 18 ist *ls Beispiel eine komplexe Masc hine abgebildet 
bei der das PAE-Array (1801) einerseits einen Load/Store- 
Eihheit (1802) mit nachgeschaltetem RAM (1803) ansteuert und 
gleichzeitig eine- Register-Bank (1804) mit nachgeschaltetem 
RAM (1805) aufweist- 1802 und 1804 konnen jeweils von einer 
PAE oder einer beliebigen Gruppe von PAEs anqesteuert werden. 
Die Einheit wird gema5 dem VgU-Prinzip von einer CT (1806) 
qesteuert. 

Wichtig ist, dafl zwischen der Load/Store-Einheit (1802) und 
der Register-Bank (1804) und deren Ansteuerung kein 
wesentlicher Unterschied besteht . 



In Figur 19 ist ein Beispiel fur das Umsortieren von Graphen 
qezeigt . 
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nochoprach 



Ein 
werden 



Modal kann beispielsweise f olgendermaBen deklariert 



module example 1 

input (varl, var2 : tyi,\ var3 : ty 2 ) 

cutout (resl, res2 : ty 3 ) - 

begin 



register <regnamel> (resl) - 
register <regname2> (res2) . 
texmitiatee (resl & res2; 1)* 
end. - ^ i ' , 

W' module Jcennzeichnet den Beginn eines Modules. 

input/ output definiert die Ein-/Ausgangsvariablen mit den 

Typen ty„- 

begin . end markieren den Rumpf des Modules . 
register <regnamel/2> tlbergibt das Ergebnis an den Output, 
wobei des Ergebnis in dem durch <regnamel/2> spezif izierten 
Register zwischengespeichert wird, <regnamel/2> ist dabei eine 
globale Referenz auf ein bestimmtes Register. 

Als weitere Obergabemodi an den Output stehen beispielsweise 
folgende Speicherarten zur Verfugung: 

fifo <fifoname> r wobei die Daten an einen riach dem FIFO- 
Prinzip arbeitehden Speicher iibergeben werden. <f if onaroe> ist 
dabei eine globale Referenz auf einen bestiromten, im FIFO- 
Modus arbeitenden Speicher. terminates wird dabei urn den 
Parameter b'zw. das Signal "f if of ull" erweitert, der/das 
anzeigt, dafi der Speicher voll ist. 
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stock <stackname>, wobei die Daten an einen nach dem Stack- 
Prinzip arbeitenden Speicher ubergeben werden. <stackname> ist 
dabei eine globale Referenz auf einen bestimmten, ira Stack- 
Modus arbeitenden Speicher- 



taxmiaateg unterscheidet die Programmierung entsprechend des 
erfindungsgemafcen Verfahrens von der herkGmmlichen 
sequentiellen Programmierung. Der Befehl definiert das 
Abbruchkriterium des Modules. Die Ergebnisvariablen resl und 
res2 werden von terminate? nicht mit ihrera tats^chlichen Wert 
evaluiert, statt dessen wird nur die Gultigkeit der Variablen 
(also deren Statussignal) geprttf t . Dazu werden die beiden 
Signale resl und res2 boolsch miteinander verkniipft, z.B. 
durch eine UND-, ODER- Oder XOR-Operation. Sind beide 
variablen giiltig, terminiert das Modul mit dem Wert 1. Das 
bedeutet, ein Signal mit dem Wert 1 wird an die ubergeordneten 
Ladeeinheit weitergeleitet , woraufhin die ubergeordneten 
Ladeeinheit das nachfolgende Module ladt. 



module example2 

input (varl, var2 : ty 3 ; var3 : ty*) - 

output (resl : ty 4 ) * 

begin 

register <regnamel> (varl, var2) . 

fifo <fifonamel> {resl, 256) - 
terminates (f if of ull (<f if onaxnel>) ; 1). 
end, 

register wird in diesem Beispiel ttber input-Daten definiert. 

Dabei ist <regnamel> derselbe wie in examplel. Dies bewirkt, 
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dafi das Register, das die output-Daten in examplel aufnimmt, 
die input -Daten fur example2 zur Verfiigung stellt. 

fifo definiert einen FIFO-Speicher der Tiefe 256 fur die 
Ausgangsdaten resl. Das Full-Flag (fifofull) des FIFO- 
Speichers wird in terminates als Abbruchkriterium verwendet. 



module main 

input (inl, in2 : ty x ; in3 : ty 2 ) - 

output: (outl : ty 4 ) - 

begin 

define <regnamel> : register (234) . 
define <regname2> : register (26) - 
rtefi <fifonamel> : fifo(256,4). 



// FIFO Tiefe 256 



(varl2, var72) « call examplel (inl, in2, in3) 

(outl) = call example2 (varl2, var72 r var243) . 

signal (outl) _ - 
terminates ( exampl e2 ) . 
end. 



define definiert eine Schnittstelle fur Oaten (Register, 
Speicher, etc). Bei der Definition we r den die erf orderlichen 
Ressourcen, sowie die Bezeichnung der Schnittstelle angegeben. 
Da die Ressourcen jeweils nur eininal zur Verfiigung stehen, 
nuissen sie eindeutig angegeben werden* Daxnit ist die 
Definition global , d.h. die Bezeichnung gilt fur das gesamte 
Programnw 

call ruft ein Modul als Unterprogramm auf . 
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signal definiert ein Signal als Ausgangssignal, ohne dafi eine 
Zwischenspeicherung verwendet wird. 

Durch tetminateg (example2) wird das Modal main termini ert, 
sobald das CJnterprogramm example2 texroiniert. 

Ourch die globale Declaration "define . 99 ist es prinzipiell 
nicht mehr notwendig, die so definierten input/output Signal© 
in die Sctinittstellen-DeJclariation der Module auf^unehmen. 

Die Zuatandsinformat^ionen das Prozessormodella 

Zur Bestimmung der Zustande innerhalb -eines Graphen werden die 
Statusregister der einzelnen Zellen (PAEs) uber ein zusatzlich 
zum Datenbus (0801) exxstierendes, frei rout- and . 
segment ierbares Status-Sussystern (0802) alien anderen 
Rechenwerken zur Verfugung g^stellt (Fig. 8b). Das bedeutet, 
da/i eine Zelle (PAE X) die Statusinformation einer andern 
Zelle (PAE Y) evaluieren kann und dementsprechend die Daten 
verarbeitet. Urn den Unterschied zu bestehenden 
Parallelrechnersystemen zu verdeutlichen, ist in Fig- 8a der 
Stand der Technik angegeben. Dabei ist ein 

Multiprozessorsystem gezeigt, dessea Prozessoren uber einen 
gemeinsamen Oatenbus (0803) miteinander verbunden sind. Ein 
explizites Bussystem far den synchronen Austausch von Daten 
und Status existiert nicht. 

AbschlieJSend soil angemerkt werden, daft, je nach Aufgabe sowohl 
der Datenflufigraph, als auch der Kontrollf lufcgraph 
entsprechend dem beschriebenen Verfahren behandelt werden 
kann- 



- 28 / 33±£ - 



Datum 09.01.00 13:48 FAXG3 Nr: 214750 von NVS:FAXG3.I0.0201/00721469308 (Seite 2 von 15) 



+49-721-469308 KRNZLEI ZPHN/PIETRUK 
-jhtt^w iy:^y PRCT Gf'IBH 



297 SQ3 09.01.00 13:52 
S. 30/54. 



m 



Enreitemngen in dag Hardirare qeqenuber PACT0 £P196 51 075 » 9 
una PACT04P 196 54 846-2 

Durch PACT0 3P196 51 075.9 und PACT0 4 P196 54 846 - 2 ist der 
Stand der Technik in Bezug auf die Konf igurationseigenschaf ten 
von Zellen (PAEs) definiert. 

Dabei soil auf zwei Eigenschaf ten eingegangen werden: 

1. Einer PAE (0903) ist gernaft PACT02 P196 51 075.9 ein Satz 
von Konf igurationsregistern (0904) z uqeordnet , der eine 
Konf iguration beinhaltet (Fig. 9&a) . 

2. Eine Gruppe von PAEs (0902) kann gemaJi PACT04 P196 54 '846.2 
auf einen Speicher zum Speichern oder Lesen von Daten 
zugreifen (Fig. 9£b) 

Aufgabe ist es r 

a) ein Verfahren zu schaffen> das das Umkonf igurieren vori PAEs 
beschleunigt und zeitlich von der ubergeordneten Ladeeinheit 
entkoppelt, und 

b) das Verfahren so auszulegen, daft gleichzeitig die 
Mttglichkeit geschaffen wird uber mehrere Konf igurationen zu 
sequenzen , und 

c) gleichzeitig mehrere Konfqurationen in einer PAE zu halten, 
von denen jLtamer eine aktiviert 1st und zvischen verschiedenen 
Konf igurationen schnell qewechselt werden kann. — 

Entkopplung der Konfi^orationsregister 

Das Konf igurationsregister wird von der tibergeordneten 
Ladeeinheit (CT) entkoppelt (Fig. 10-9) , indem ein Satz von 
mehreren Konf igurationsregistern (109^01) verwendet wird. 
Immer genau eines der Konf igurationsregister bestimmt selektiv 
die Funktion der PAE. Die Auswahl des aktiven Registers wird 
uber einen Multiplexer (££1002) durchgef iihrt . In jedes der 
Konf igurationsregister kann die CT beliebig schreiben, sofern 
dieses nicht die aktuelle Konf iguration der PAE bestimmt , d. h. 

- 29 • / 33±& - 



I 



Datum 09.01.00 13:48 FAXG3 Nr: 214750 von NVS:FAXG3.I0.0201/00721469308 (Seite 3 von 15) 



+49-721-469308 KANZLE I ZAHN/PIETRUK 



297 S04 



09. 01. 00 



13:52 



aktiv ist . Das Schreiben auf das aktive Register ist 
prinzipiell moglich, dazu stehen die in PACT1Q beschriebenen 
Verfahren zur Verfugung. 

Welches Konf igurationsregister von ££1002 selektiert wird kann 
durch verschiedene Quellen bestimmt werden: 

1* Ein beliebiges status-Signal oder eine Gruppe beliebiger 
Status-Signale, die tiber ein Bussystem (0802) an ££1002 
gefuhrt werden (Fig. -SI pa) - Die Status-Signale werden dabei 
von beliebigen PAEs generiert oder durch externe Anschlusse 
des Bausteins zur Verfugung gestellt (vgl. Fig- 8) . 
2- Das Status-Signal der PAE, die von ££100i/££1002 
konfiguriert wird, dient zur Selection (Fig. £10b) . 
3. Ein von der tibergeordneten CT generiertes Signal dient zur 
Selektion (Fig- £10c) . 

Dabei ist es Mnittglichywahlweise die eingehenden Signale 
(££10Q3 > 0004, 0005 ) mittels eines Registers far einen 
bestimmten Zeitraum zu speichern und alternativ und wahlweise 
abzurufen. 



Durch den Einsatz mehrere Register wird die CT zeitlich 
entkoppelt. Das bedeutet, die CT kann mehrere Konf igurationen 
M vorladen M , ohne daB eine direkte zeitliche Abhangigkeit 
besteht, 

Lediglich^ wenn das selektierte /aktivierte Register in ££1001 
noch nicht' geladen ist r wird mit der Konf iguration der.PAE so 
lange gewartet, bis die CT das Register geladen hat. Um 
f estzustellen, ob ein Register eine gultige Information 
besitzt kann beispielsweise ein "Valid-Bit" (£££ 41004 ) pro 
Register eingefiihrt werden , das von der CT geset2t wird. 1st 
0906 bei einem selektierten Register nicht gesetzt, wird Uber 
ein Signal die CT zum schnellstmeglichen Setzen des Registers 
aufgefordert . 
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Das in Fig- £10 beschriebene Verfahren ist einfach 2u einem 
Sequenzer erweiterbar (Fig, ^1,1) - Dazu wird ein 
Mikrokontrollor Sequenzer mit Instruktionsdekoder ( W11.0 1 ) zur 
Ansteuerung der Selektionssignale des Multiplexers (^1^002) 
verwendet. Der Sequenzer bestixnmt dabei abhangig von der 
aktuell selektierten Konf iguration (^1102) und einer 
zusatzlichen Statusinformation (i011 03/^01104) die nachste zu 
selektierende Konf iguration . Dabei kann die Statusinf ormation 

(a) der Status der Status-Signal der PAE, die von 
■8-»1001/»»1002 konfiguriert wird sein (Fig. i^lla) 

(b) ein beliebiges Uber 0802 zugefuhrtes Statussignal sein 
(Fig. 4^11b) 

(c) eine Kombination aus (a) und (b) sein. 

Zum cinfaahcn Vorotandnio kann 0Q01 1001 kann auch als e-ift 
Speicher botraohtct wordo n ausqestaltet sein , wobei Uber 
anstatt O£lQ02 ein Befehl von 4^1101 adressiert wird. Die 
Adressierung ist dabei abhangig vom Befehl selbst und von 
einem Statusregister . Insoweit entspricht der Aufbau einer 
"von Neumann" Maschine, mit dera Unterscheid, 

(a) der universellen Einsetzbarkeit, also den Sequenzer nicht 
zu verwenden (vgl. Fig. £10) 

(b) daA das Statussignal nicht von dem dem Sequenzer 
zugeordneten Rechenwerk (PAE) generiert werden mufc, sondern 
von einem beleibigen anderen Rechenwerk stammen kann (vgl. 
Fig- i£llb) . 

Wichtig ist, daB der Sequenzer dabei SprUnge, insbesondere 
auch bedingte Spriinge, innerhalb von &31001 ausfuhren kann. 



Ein weiteres zusatzliches oder alternatives Verfahren (Fig- 
12-Hr) zum Aufbau von Sequenzern innerhalb dor gonannton 
BCHiot cine von VPUs ist die Verwendung der internen 
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Datenspeicher (441201 , 0901 ) zum Speichern der 
Konfigurationsinformation ffir eine PAE * Oder eine Gruppe von 
PAEs- Dabei wird der Datenausgang eines Speichers auf einen 
Konfigurationseingang einer PAE oder mehrer PAEs geschaltet. 
(■Hrl202) • Die Adresse (1244433) far 124*01 kann. dabei von 
derselben PAE /denselben PAEs oder einer oder mehreren 
beliebigen anderen generiert werden* 
Bex diesem Verfahren ist der Sequen2er nicht fest 
implementiert, sondern wird durch eine PAE oder eine Gruppe 
yon PAEs nachgebildet . 
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Patentansprtich e 

Verfahren sum Ausftihren von Programmen auf einem Baustein mit 
ein- Oder mehrdimensionaler Zellstruktur, dadurch 
gekennzeichet, 

dafi Dateriflufi- oder Kontrollf luftgraphen in zeitlich getrennte 
Teilgraphen partitioniert werden und sequentiell auf den 
Baustein abgebildet und ausgeftihrt werden. 
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